utilizando pacotes para processamento de texto
Um token é uma unidade mínima de texto, geralmente uma palavra.
Exemplo: Na frase “Fiel como um cão”, os tokens são: “fiel”, “como”, “um”, “cão”.
Bigramas são pares consecutivos de palavras em um texto.
Exemplo: No verso “Porque chumbo trocado não dói” os bigramas são “Porque chumbo”, “chumbo trocado”, “trocado não”, “não dói”
Palavras comuns que geralmente não agregam significado em uma análise, como “o”, “de”, “e”.
Exemplo: “Minha vó é show de bola / Aprendeu lá em Angola / Encontrou meu corpo aberto e fechou” - sem as stopwords: “minha vó é bola aprendeu lá angola encontrou meu corpo aberto fechou”
APIs (Spotify, Genius, Vagalume, etc.),
Planilhas com metadados musicais,
Rankings (Billboard, Spotify…)
Seus dados!
O que investigar em um dataset musical: artista, album, ano, letras, gênero, popularidade.
dplyr (manipulação de dados);
text (análise de texto);
ggplot2 (visualização);
tidytext (NLP para texto);
spotifyr (coleta de dados da API Spotify).
R-Ladies São Paulo